【TAIL CAMP】NLP Task：句子语义相似度预测

主要目标

学习nltk，gensim等基本自然语言处理工具
学习机器学习基本工具Sklearn
相似度计算理论与方法学习

Day1 nltk，python

学习使用nltk,python，同时掌握nlp的一些基本处理技巧和方法，例如tokenize，stem等

今天主要把推荐书籍的第五章节前面的内容，选择性看一遍（根据自身的情况选择），同时把里面涉及的python代码敲一敲(做文中的example)。主要学习python的数据类型和使用，以及nlp的一些基本概念。

安装nltk 安装教程
学习《Natural Language Processing with Python》一书前6章节，进行文本tokenize，stem等操作

Day 2: gensim

今天我们主要学习使用nlp中比较流行的一种词向量生成方法word2vec，gensim是其在python环境下的实现。除此之外，gensim本身还带有其他的一些例如特征提取，主题模型计算等功能

安装gensim 安装教程
Gensim主要功能介绍，学习tf-idf提取等功能
Gensim工具例子: 学习使用gensim来提取，词向量等特征

Day3: scikit-learn

scikit-learn安装和例子学习，学习使用工具进行拟合。

scikit-learn是机器学习领域广泛被使用的一个python工具，里面集成了大量的机器学习算法。今天我们学习其中的Ridge Regression 和 svr方法，Ridge Regression使用比较简单，svr是深度学习前的主流方法(里面现在也集成了深度学习的工具，有兴趣的同学可以尝试)。后面可以选择使用这些方法对相似度数据进行拟合。

官网主页
安装 scikit-learn 教程
学习使用 scikit-learn 进行拟合
- Ridge Regression教程
- Svr教程
  
  说明：
1. 若由于某些原因链接打不开，可以从主页点进去试试
  
  Ridge Regression：主页 -> Regression -> 1.1.2 Ridge Regression
  
  svr: 主页 -> Regression -> 1.4.2. Regression
2. 对拟合概念不太理解的同学可参考：
  
  维基百科
  
  Andrew Ng课程第三章